Search CORE

21 research outputs found

Fouille de textes par combinaison de règles d'association et d'indices statistiques

Author: Cherfi Hacène
Toussaint Yannick
Publication venue: HAL CCSD
Publication date: 01/09/2002
Field of study

Colloque avec actes et comité de lecture. internationale.International audienceNous proposons la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus ayant servi à notre expérimentation est constitué de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Ce processus génère un trop grand nombre de règles et nous amène à chercher à les trier de la plus informative à la moins informative.Le classement est établi suivant des indices statistiques. Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétabilité des règles d'association. || This paper aims at defining a methodology of access and reading of association rules extracted from texts. The corpus used is a set of scientific abstracts in the field of molecular biology. The mining process often generates a huge number of rules. Thi

INRIA a CCSD electronic archive server

Méthodologie de sélection et de lecture de règles d'association pour la fouille de textes

Author: Cherfi Hacène
Toussaint Yannick
Publication venue: HAL CCSD
Publication date: 01/01/2003
Field of study

Colloque sans acte à diffusion restreinte. nationale.National audienceCette communication porte sur la conception et la réalisation d'un outil de fouille dans les textes (FdT) pour aider un utilisateur, expert d'un domaine donné, dans sa tâche de veille technologique et scientifique

INRIA a CCSD electronic archive server

Interprétation des règles d'association extraites par un processus de fouille de textes

Author: Cherfi Hacène
Toussaint Yannick
Publication venue: HAL CCSD
Publication date: 01/01/2002
Field of study

Colloque avec actes et comité de lecture. nationale.National audienceNous proposons, dans cet article, la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus qui a servi à notre expérience est une collection de textes sous forme de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Notre recherche porte sur: i) l'extraction des règles d'association sur des données textuelles; ii) l'association d'indices statistiques à chaque règle, ce qui permet de les ordonner; iii) l'interprétation de ces règles par un expert du domaine afin de trouver un lien entre les indices et la nature des connaissances qu'il recherche. Cet article portera essentiellement sur les deux derniers points. Nous montrons l'importance d'aider l'expert dans son interprétation des règles à l'aide des indices statistiques. Nous soulignons également la difficulté de caractériser une règle par rapport aux textes et au domaine considéré. Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétation des règles d'association

INRIA a CCSD electronic archive server

Adéquation d'indices statistiques à l'interprétation de règles d'association

Author: Cherfi Hacène
Toussaint Yannick
Publication venue: HAL CCSD
Publication date: 01/01/2002
Field of study

Colloque avec actes et comité de lecture. internationale.International audienceNous proposons, dans cet article, la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus qui a servi à notre expérience est une collection de textes sous forme de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Notre recherche porte sur : i)l'extraction des règles d'association à partir de la construction des ensembles fermés fréquents générés par l'algorithme "Close"; ii)l'association d'indices statistiques à chaque règle, ce qui permet de les ordonner; iii)l'interprétation des règles par un expert du domaine; iv) la mise en correspondance des points ii) et iii). Cet article portera essentiellement sur les trois derniers points. Nous montrons l'importance d'aider l'expert, grâce aux indices, dans son interprétation des règles. Nous insistons, plus particulièrement, sur deux de ces indices~: l'"intérêt" et la "dépendance" pour les règles dites "totales". Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétabilité des règles d'association

INRIA a CCSD electronic archive server

Towards a Text Mining Methodology Using Frequent Itemsets and Association Rule Extraction

Author: Cherfi Hacène
Napoli Amedeo
Toussaint Yannick
Publication venue: INRIA Lorraine
Publication date: 01/09/2003
Field of study

Colloque avec actes et comité de lecture. nationale.National audienceThis paper proposes a methodology for text mining relying on the classical knowledge discovery loop, with a number of adaptations. First, texts are indexed and prepared to be processed by frequent itemset levelwise search. Association rules are then extracted and interpreted, with respect to a set of quality measures and domain knowledge, under the control of an analyst. The article includes an experimentation on a real-world text corpus holding on molecular biology

INRIA a CCSD electronic archive server

Vers une méthodologie de fouille de textes s'appuyant sur l'extraction de motifs fréquents et de règles d'association

Author: Cherfi Hacène
Napoli Amedeo
Toussaint Yannick
Publication venue: Presses universitaires de Grenoble
Publication date: 01/07/2003
Field of study

Colloque avec actes et comité de lecture. nationale.National audienceNous proposons la description d'une méthodologie d'interprétation des règles d'association extraites à partir de textes. Le corpus qui a servi à notre expérience est une collection de textes sous forme de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Notre recherche porte sur: i) l'extraction des règles d'association à partir de la construction des motifs fermés fréquents générés par l'algorithme "Close"; ii) l'association de mesures qualitatives à chaque règle, ce qui permet de les ordonner; iii) l'interprétation des règles par un analyste (expert du domaine); iv) la mise en correspondance des points ii) et iii). Nous montrons comment aider l'analyste, grâce à des mesures de qualité, dans l'interprétation des règles. Une discussion sur nos résultats met en valeur des points qui nous paraissent fondamentaux dans l'interprétation des règles d'association

INRIA a CCSD electronic archive server

A Conformity Measure using Background Knowledge for Association Rules: Application to Text Mining

Author: Cherfi Hacène
Napoli Amedeo
Toussaint Yannick
Publication venue: 'IGI Global'
Publication date: 01/01/2009
Field of study

A text mining process using association rules generates a very large number of rules. According to experts of the domain, most of these rules basically convey a common knowledge, i.e. rules which associate terms that experts may likely relate to each other. In order to focus on the result interpretation and discover new knowledge units, it is necessary to define criteria for classifying the extracted rules. Most of the rule classification methods are based on numerical quality measures. In this chapter, we introduce two classification methods: The first one is based on a classical numerical approach, i.e. using quality measures, and the other one is based on domain knowledge. We propose the second original approach in order to classify association rules according to qualitative criteria using domain model as background knowledge. Hence, we extend the classical numerical approach in an effort to combine data mining and semantic techniques for post mining and selection of association rules. We mined a corpus of texts in molecular biology and present the results of both approaches, compare them, and give a discussion on the benefits of taking into account a knowledge domain model of the data

INRIA a CCSD electronic archive server

Deux méthodes de classification de règles d'association en fouille de textes

Author: Cherfi Hacène
Napoli Amedeo
Toussaint Yannick
Publication venue: Presses Universitaires de Montréal
Publication date: 01/04/2005
Field of study

Un processus de fouille de données textuelles s'appuyant sur l'extraction de règles d'association engendre un très grand nombre de règles extraites. Il est alors nécessaire pour classifier les règles extraites de pouvoir disposer de critères de classification de qualité fiable, par exemple en rapport avec des connaissances disponibles sur le domaine des textes. La plupart des méthodes de classification de règles d'association mettent en oeuvre des critères statistiques pour juger de la qualité d'une règle. Dans cet article, nous présentons deux méthodes de classification : la première est classique et met en jeu des mesures statistiques tandis que la seconde est plus originale et fait appel à un modèle de connaissances du domaine. Un exemple et une discussion sur le bien-fondé de cette approche illustrent et complètent cet article

INRIA a CCSD electronic archive server

Sélection de règles d'association par un modèle de connaissances pour la fouille de textes

Author: Cherfi Hacène
Janetzko Dietmar
Napoli Amedeo
Toussaint Yannick
Publication venue: Presses Universitaires de Grenoble
Publication date: 01/01/2004
Field of study

Colloque avec actes et comité de lecture. nationale.National audienceParmi les inconvénients d'un processus de fouille de données textuelles fondé sur l'extraction de règles figurent le grand nombre de règles extraites et la difficulté d'affecter à une règle un critère de qualité fiable par rapport aux connaissances de l'analyste (i.e., l'expert du domaine). La plupart des approches pour la sélection des règles d'association utilisent des méthodes statistiques pour juger de la qualité d'une règle. L'approche standard d'extraction de règles n'utilise pas les connaissances du domaine des données disponibles a priori. Dans cet article, nous évaluons la qualité d'une règle d'association par rapport au modèle de connaissances en définissant une mesure de vraisemblance. Cette vraisemblance mesure l'adéquation des règles extraites au modèle de connaissances du domaine. Nous pouvons classer les règles en deux catégories. D'une part, les règles qui sont strictement conformes au modèle sont dites triviales et sont ignorées. D'autre part, les règles qui ne dérivent pas du modèle sont potentiellement porteuses de nouvelles connaissances. Ces règles sont présentées à l'analyste pour être validées et, ensuite, pour enrichir le modèle de connaissances

INRIA a CCSD electronic archive server

Knowledge-based Selection of Association Rules for Text Mining

Author: Cherfi Hacène
Janetzko Dietmar
Kennke Roman
Napoli Amedeo
Toussaint Yannick
Publication venue: 'IOS Press'
Publication date: 01/01/2004
Field of study

Colloque avec actes et comité de lecture. nationale.National audienceA reoccuring problem in mining association rules is the selection of interesting association rules within the overall, and possibly huge set of extracted rules. The majority of previous work in this area relies on statistical methods for quality estimation and se-lection of association rules. However, strictly bottom-up approaches are oblivious of knowledge though knowledge may be available (e.g., provided by ontologies), and rule extraction may take advantage of it. In this paper, we conceive of the problem of selecting association rules as a classification task. A framework of a binary probabilistic classifier is introduced that uses ontologies in order to estimate whether and to which degree a rule expresses a mere taxonomic relationship. In so doing, selection of association rules (selection by elimination) is carried out by identifying and discarding trivial association rules

INRIA a CCSD electronic archive server